home *** CD-ROM | disk | FTP | other *** search
/ Language/OS - Multiplatform Resource Library / LANGUAGE OS.iso / essence / aftp.src next >
Text File  |  1993-07-20  |  7KB  |  146 lines

  1. (:source
  2.    :version        3
  3.    :ip-address        "128.138.243.151"
  4.    :ip-name        "ftp.cs.colorado.edu"
  5.    :tcp-port        8000
  6.    :database-name     "aftp-cs-colorado-edu"
  7.    :cost         0.00
  8.    :cost-unit         :free
  9.    :maintainer         "hardy@cs.colorado.edu"
  10.    :description     
  11. "You can use this WAIS server to search and retrieve files from the
  12. anonymous ftp archive on ftp.cs.colorado.edu [128.138.243.151].  We
  13. used Essence, a resource discovery system based on semantic file
  14. indexing, to build the WAIS index for this server.  As explained below,
  15. Essence currently only allows the retrieval of file summaries through
  16. WAIS.  To retrieve entire files, use anonymous ftp on ftp.cs.colorado.edu.
  17.  
  18. Essence exploits file semantics to index both textual and binary
  19. files.  By exploiting semantics, Essence extracts keywords that
  20. summarize a file, and generates a compact yet representative index.
  21. Essence understands nested file structures (such as uuencoded,
  22. compressed, ``tar'' files), and recursively unravels such files to
  23. generate summaries for them.  Essence generates indexes that are ten
  24. times smaller than WAIS indexes, but retain the fine-grained
  25. information access that WAIS's full-text indexes provide.
  26.  
  27. Furthermore, Essence generates WAIS-compatible indexes allowing WAIS
  28. users to make use of Essence's indexing capabilities.  This is one of
  29. the ways that the Networked Resource Discovery Project at the
  30. University of Colorado has extended the conceptual paradigm of the type
  31. of information that WAIS handles.
  32.  
  33. If you would like to learn more about Essence, you can obtain the
  34. source to the Essence prototype and a paper which appears in the 1993
  35. Winter USENIX Technical Conference, San Diego, CA, January 1993, 
  36. pp. 361-374.  Both the paper and the prototype are available via 
  37. anonymous ftp from ftp.cs.colorado.edu in /pub/cs/distribs/essence.  
  38. Or search for the keyword 'Essence' using this WAIS server to find all 
  39. of the files on ftp.cs.colorado.edu that are related to Essence; you 
  40. will find the files for both the paper and the prototype.
  41.  
  42. This WAIS server was created in December 1992 by Darren R. Hardy and
  43. Michael F. Schwartz as part of the Networked Resource Discovery
  44. Project.  You may reach them at the Department of Computer Science,
  45. University of Colorado, Boulder, CO  80309-0430, or via email at
  46. hardy@cs.colorado.edu and schwartz@cs.colorado.edu.
  47.  
  48. Below is some more information about the WAIS interface to Essence.
  49.  
  50.     Essence exports its indexes through WAIS's search and
  51.     retrieval interface, allowing users to use tools such as
  52.     waissearch and the X Windows-based graphical user interface
  53.     xwais.  In order to generate WAIS-compatible indexes,
  54.     Essence uses WAIS's indexing software to index the Essence
  55.     summary files.  This mechanism generates full-text WAIS
  56.     indexes from the Essence summary files.
  57.  
  58.     We modified the WAIS indexing mechanism to understand the
  59.     format of the Essence summary files, so that it generates
  60.     meaningful WAIS headlines.  These headlines provide users
  61.     with a short description of a single file, usually a
  62.     filename.  With Essence, headlines represent a file's core
  63.     filename, its actual filename, and its file type.
  64.  
  65.     To support additional file types, WAIS must be recompiled
  66.     with new procedures that understand these file types.  With
  67.     Essence, one need only write a new summarizer, add its name
  68.     to a configuration file, and add new heuristics for
  69.     identifying the file type; no recompilation is necessary.
  70.     In this sense, Essence modularizes the typed-file indexing
  71.     extensions that WAIS can use, because it removes the
  72.     keyword extraction process from WAIS and places it instead
  73.     in Essence.  Essence is better suited to incorporating new
  74.     file types, and can be quickly adapted to become a
  75.     comprehensive indexing system.
  76.  
  77.     The following waissearch output shows an example search of
  78.     an index generated by Essence of the ftp.cs.colorado.edu
  79.     anonymous FTP file system.  It shows an ordered list of the
  80.     ten files that best match the keyword netfind.  Netfind is
  81.     an Internet user directory service.  The headlines have up
  82.     to three fields representing the matching file: the core
  83.     filename, the filename (if different from the core
  84.     filename), and the file type.
  85.  
  86. ------------------------------------------------------------
  87.  
  88. csh% waissearch netfind
  89.    1:  /cs/ftp/techreports/schwartz/PostScript/Techniques.Wide.Area.ps.Z 
  90.        Techniques.Wide.Area.ps PostScript
  91.  
  92.    2:  /cs/ftp/techreports/schwartz/PostScript/ALL.PS.tar.Z 
  93.        PostScript/Techniques.Wide.Area.ps PostScript
  94.  
  95.    3:  /cs/ftp/distribs/netfind/netfind3.10.tar.Z ServerShell/nsh.c C
  96.  
  97.    4:  /cs/ftp/distribs/netfind/README  README
  98.  
  99.    5:  /cs/ftp/distribs/netfind/netfind3.10.tar.Z README README
  100.  
  101.    6:  /cs/ftp/distribs/netfind/netfind3.10.tar.Z Doc/netfind.1 ManPage
  102.  
  103.    7:  /cs/ftp/techreports/schwartz/PostScript/Proj.Overview.ps.Z 
  104.        Proj.Overview.ps PostScript
  105.  
  106.    8:  /cs/ftp/techreports/schwartz/PostScript/RD.Comparison.ps.Z 
  107.        RD.Comparison.ps PostScript
  108.  
  109.    9:  /cs/ftp/techreports/schwartz/PostScript/ALL.PS.tar.Z 
  110.        PostScript/Proj.Overview.ps PostScript
  111.  
  112.    10: /cs/ftp/techreports/schwartz/PostScript/ALL.PS.tar.Z 
  113.        PostScript/RD.Comparison.ps PostScript
  114. csh%
  115.  
  116. ------------------------------------------------------------
  117.  
  118.     Consider the effectiveness of the example search shown
  119.     above.  The best match is a PostScript paper that discusses
  120.     a number of techniques for distributed information systems,
  121.     with particular emphasis on techniques demonstrated by
  122.     Netfind; the second match is the same file, but found in
  123.     the compressed tar distribution ALL.PS.tar.Z.  The third
  124.     match is the C source code for the interactive user
  125.     interface to Netfind.  The fourth match is the README file
  126.     found in the Netfind distribution directory; the fifth
  127.     match is the same file, but found in the compressed tar
  128.     distribution netfind.3.10.tar.Z.  The sixth match is the
  129.     UNIX manual page for Netfind.  The remaining matches are
  130.     PostScript papers in which Netfind is discussed.
  131.  
  132.     In WAIS, a user retrieves files by selecting a matching
  133.     headline.  With Essence, if the headline represents a file
  134.     hidden within a nested file (such as the first headline in the
  135.     example), the summary file is retrieved, instead of retrieving
  136.     the hidden file itself.  If the headline represents a plain
  137.     file (such as the fourth headline in the example), the summary
  138.     file is also retrieved.  This functionality requires allocating
  139.     storage for both the required summary files and the index.
  140.     However, it allows users to browse through remote file systems
  141.     by retrieving and viewing small summary files without having to
  142.     retrieve complete files.  This is useful when trying to decide
  143.     whether to transfer large files across a slow network.  
  144. )
  145.